“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

HDFS读写流程

Original 大数据私房菜大数据私房菜 2022-07-01

收录于合集

#技术文章 66 个

#面试相关 44 个

一 HDFS读流程

client跟namenode通信查询元数据，namenode通过查询元数据，找到文件块所在的datanode服务器
挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流
datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验，大小为64k）
客户端以packet为单位接收，现在本地缓存，然后写入目标文件

二 HDFS写流程

客户端跟namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在，用户是否有权限等
namenode返回是否可以上传
client请求第一个 block该传输到哪些datanode服务器上
namenode返回3个datanode服务器ABC
client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，逐级返回客户端
client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答
当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

2020大数据面试题真题总结(附答案)

数据建模知多少？

如何写好一篇数据部门规范文档

如何优化整个数仓的执行时长(比如7点所有任务跑完，如何优化到5点)

从0-1建设数仓遇到什么问题？怎么解决的？

多值维度及交叉维度最佳解决方案

深入探究order by,sort by,distribute by,cluster by

Hive调优，数据工程师成神之路

数据质量那点事

简述元数据管理

你真的了解全量表,增量表及拉链表吗？

缓慢变化维(SCD)常见解决方案

全方位解读星型模型,雪花模型及星座模型

left join(on&where)

你们公司还在用SparkOnYan吗？

大厂高频面试题-连续登录问题

朋友面试数据研发岗遇到的面试题

数据仓库分层架构

简单聊一聊大数据学习之路

朋友面试数据专家岗遇到的面试题

HADOOP快速入门

数仓工程师的利器-HIVE详解

您可能也对以下帖子感兴趣

文章有问题？点此查看未经处理的缓存